export NUM_NODES=1
export NUM_GPUS_PER_NODE=8
export MASTER_ADDR=10.90.1.237
export MASTER_PORT=6003
export NODE_RANK=0
echo "Running: python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 8 --global_tp_consec 1 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
"
python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 8 --global_tp_consec 1 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
sleep 20
sleep 10
echo "Running: python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 4 --global_tp_consec 1 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
"
python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 4 --global_tp_consec 1 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
sleep 20
echo "Running: python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 4 --global_tp_consec 0 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
"
python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 4 --global_tp_consec 0 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
sleep 20
sleep 10
echo "Running: python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 2 --global_tp_consec 1 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
"
python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 2 --global_tp_consec 1 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
sleep 20
echo "Running: python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 2 --global_tp_consec 0 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
"
python -m torch.distributed.launch --nnodes=$NUM_NODES --nproc_per_node=$NUM_GPUS_PER_NODE --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$NODE_RANK profile_allreduce.py --global_tp_deg 2 --global_tp_consec 0 --pp_deg 1 --nproc_per_node=$NUM_GPUS_PER_NODE 
sleep 20
sleep 10
